2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

Update: 2025-10-13

Description

本期的 14 篇论文如下：

[00:20 ] 🖥 D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI（D2E：利用桌面数据规模化视觉-动作预训练以迁移至具身智能）

[01:13 ] 📷 Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation（基于相机的统一多模态理解与生成模型）

[01:56 ] 🎨 TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling（TAG：抑制幻觉的扩散采样切向放大引导）

[02:31 ] 🧠 Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs（多模态提示优化：为何不为多模态大模型释放全模态潜能）

[03:05 ] 🚀 AutoPR: Let's Automate Your Academic Promotion!（AutoPR：让学术晋升一键自动化！）

[03:39 ] 🧭 R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?（R-HORIZON：你的大推理模型在广度与深度上究竟能走多远？）

[04:14 ] 🚀 Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels（Webscale-RL：把强化学习数据扩展到预训练体量的自动化流水线）

[04:56 ] 🛰 SpaceVista: All-Scale Visual Spatial Reasoning from mm to km（SpaceVista：毫米到千米全尺度视觉空间推理）

[05:37 ] 🎥 StreamingVLM: Real-Time Understanding for Infinite Video Streams（StreamingVLM：面向无限视频流的实时理解框架）

[06:19 ] 🌐 KORMo: Korean Open Reasoning Model for Everyone（KORMo：人人可用的韩语开放推理模型）

[06:42 ] ♻ Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting（别浪费错误：通过置信度加权利用负RL组）

[07:25 ] 🧠 Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization（从推理到学习的桥梁：以复杂度分布外泛化揭穿幻觉）

[08:16 ] ⚡ DISCO: Diversifying Sample Condensation for Efficient Model Evaluation（DISCO：以模型分歧为导向的样本浓缩加速评测）

[08:56 ] 🚗 Progressive Gaussian Transformer with Anisotropy-aware Sampling for Open Vocabulary Occupancy Prediction（面向开放词汇占用预测的各向异性采样渐进高斯Transformer）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

2025.11.05 | 向量草图测代码；先画后想补视觉

2025-11-0511:31

2025.11.04 | 超稀疏MoE激活万亿参数；视觉模型看图胜GNN

2025-11-0411:06

2025.11.03 | OS-Sentinel实时守护手机操作安全；ThinkMorph让小模型边想边画

2025-11-0311:02

【月末特辑】10月最火AI论文 | 幼龙BDH稀疏可解释；迷你递归7兆碾压大模型

2025-11-0222:46

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

2025-11-0111:53

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025-10-3110:09

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

2025-10-3011:29

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025-10-2908:14

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025-10-2811:05

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

2025-10-2710:29

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025-10-2613:26

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025-10-2410:39

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

00:00

1.0x

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

#box-pro-ellipsis-176244076264299{-webkit-line-clamp:2;}2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力